一贯的高数据质量对于深度学习领域的新型损失功能和体系结构的发展至关重要。通常假定存在此类数据和标签的存在,而在许多情况下,获取高质量数据集仍然是一个主要问题。在现实世界数据集中,由于注释者的主观注释,我们经常遇到模棱两可的标签。在我们以数据为中心的方法中,我们提出了一种重新标记标签的方法,而不是在神经网络中实施此问题的处理。根据定义,硬分类不足以捕获数据的现实歧义。因此,我们提出了方法“以数据为中心的分类和聚类(DC3)”,该方法结合了半监督分类和聚类。它会自动估计图像的歧义,并根据歧义进行分类或聚类。 DC3本质上是普遍的,因此除了许多半监督学习(SSL)算法外,还可以使用它。平均而言,这会导致分类的F1得分高7.6%,而在多个评估的SSL算法和数据集中,簇的内距离降低了7.9%。最重要的是,我们给出了概念验证,即DC3的分类和聚类是对此类模棱两可标签的手动完善的建议。总体而言,SSL与我们的方法DC3的组合可以在注释过程中更好地处理模棱两可的标签。
translated by 谷歌翻译
This paper extends quantile factor analysis to a probabilistic variant that incorporates regularization and computationally efficient variational approximations. By means of synthetic and real data experiments it is established that the proposed estimator can achieve, in many cases, better accuracy than a recently proposed loss-based estimator. We contribute to the literature on measuring uncertainty by extracting new indexes of low, medium and high economic policy uncertainty, using the probabilistic quantile factor methodology. Medium and high indexes have clear contractionary effects, while the low index is benign for the economy, showing that not all manifestations of uncertainty are the same.
translated by 谷歌翻译
The text-to-image model Stable Diffusion has recently become very popular. Only weeks after its open source release, millions are experimenting with image generation. This is due to its ease of use, since all it takes is a brief description of the desired image to "prompt" the generative model. Rarely do the images generated for a new prompt immediately meet the user's expectations. Usually, an iterative refinement of the prompt ("prompt engineering") is necessary for satisfying images. As a new perspective, we recast image prompt engineering as interactive image retrieval - on an "infinite index". Thereby, a prompt corresponds to a query and prompt engineering to query refinement. Selected image-prompt pairs allow direct relevance feedback, as the model can modify an image for the refined prompt. This is a form of one-sided interactive retrieval, where the initiative is on the user side, whereas the server side remains stateless. In light of an extensive literature review, we develop these parallels in detail and apply the findings to a case study of a creative search task on such a model. We note that the uncertainty in searching an infinite index is virtually never-ending. We also discuss future research opportunities related to retrieval models specialized for generative models and interactive generative image retrieval. The application of IR technology, such as query reformulation and relevance feedback, will contribute to improved workflows when using generative models, while the notion of an infinite index raises new challenges in IR research.
translated by 谷歌翻译
Epistemic logics typically talk about knowledge of individual agents or groups of explicitly listed agents. Often, however, one wishes to express knowledge of groups of agents specified by a given property, as in `it is common knowledge among economists'. We introduce such a logic of common knowledge, which we term abstract-group epistemic logic (AGEL). That is, AGEL features a common knowledge operator for groups of agents given by concepts in a separate agent logic that we keep generic, with one possible agent logic being ALC. We show that AGEL is EXPTIME-complete, with the lower bound established by reduction from standard group epistemic logic, and the upper bound by a satisfiability-preserving embedding into the full $\mu$-calculus. Further main results include a finite model property (not enjoyed by the full $\mu$-calculus) and a complete axiomatization.
translated by 谷歌翻译
我们在新定义的触发警告分配的计算任务上介绍了第一个数据集和评估结果。标记的语料库数据是根据我们自己的档案(AO3)(一个著名的幻想网站)托管的叙事作品编制的。在本文中,我们专注于最常见的触发类型(暴力),并定义文档级二进制分类任务,即是否将暴力触发警告分配给幻想小说,并利用AO3作者提供的警告标签。通过对Corpora进行了四个评估设置培训的SVM和BERT模型,我们编制的汇编$ f_1 $结果范围从0.585到0.798,证明暴力触发警告任务是可行的,这是一项不平凡的任务。
translated by 谷歌翻译
ICECUBE是一种用于检测1 GEV和1 PEV之间大气和天体中微子的光学传感器的立方公斤阵列,该阵列已部署1.45 km至2.45 km的南极的冰盖表面以下1.45 km至2.45 km。来自ICE探测器的事件的分类和重建在ICeCube数据分析中起着核心作用。重建和分类事件是一个挑战,这是由于探测器的几何形状,不均匀的散射和冰中光的吸收,并且低于100 GEV的光,每个事件产生的信号光子数量相对较少。为了应对这一挑战,可以将ICECUBE事件表示为点云图形,并将图形神经网络(GNN)作为分类和重建方法。 GNN能够将中微子事件与宇宙射线背景区分开,对不同的中微子事件类型进行分类,并重建沉积的能量,方向和相互作用顶点。基于仿真,我们提供了1-100 GEV能量范围的比较与当前ICECUBE分析中使用的当前最新最大似然技术,包括已知系统不确定性的影响。对于中微子事件分类,与当前的IceCube方法相比,GNN以固定的假阳性速率(FPR)提高了信号效率的18%。另外,GNN在固定信号效率下将FPR的降低超过8(低于半百分比)。对于能源,方向和相互作用顶点的重建,与当前最大似然技术相比,分辨率平均提高了13%-20%。当在GPU上运行时,GNN能够以几乎是2.7 kHz的中位数ICECUBE触发速率的速率处理ICECUBE事件,这打开了在在线搜索瞬态事件中使用低能量中微子的可能性。
translated by 谷歌翻译
人工智能(AI),机器学习和深度学习(DL)方法在生物医学图像分析领域变得越来越重要。但是,为了利用此类方法的全部潜力,需要作为训练数据代表数量的实验获得的图像,其中包含大量手动注释对象。在这里,我们将语法(合成数据)介绍为一种新的方法,用于生成合成,光现实和高度复杂的生物医学图像作为DL系统的训练数据。我们在组织学切片中的肌肉纤维和结缔组织分析的背景下显示了方法的多功能性。我们证明,可以在以前看不见的现实世界数据上执行强大和专家级的细分任务,而无需仅使用合成训练数据进行手动注释。作为一种完全参数技术,我们的方法为生成对抗网络(GAN)构成了可解释的可控替代方案,并且有可能在显微镜及其他地区的各种生物医学应用中显着加速定量图像分析。
translated by 谷歌翻译
在过去几年中,Word和句嵌入式已建立为各种NLP任务的文本预处理,并显着提高了性能。不幸的是,还表明这些嵌入物从训练数据中继承了各种偏见,从而通过了社会中存在的偏差到NLP解决方案。许多论文试图在单词或句子嵌入中量化偏差,以评估脱叠方法或比较不同的嵌入模型,通常具有基于余弦的指标。然而,最近有些作品对这些指标提出了疑虑,表明即使这些指标报告低偏见,其他测试仍然显示偏差。事实上,文献中提出了各种各样的偏差指标或测试,而没有任何关于最佳解决方案的共识。然而,我们缺乏评估理论级别的偏见度量或详细阐述不同偏差度量的优缺点的作品。在这项工作中,我们将探索基于余弦的偏差指标。我们根据以前的作品和偏见度量的推导条件的思想形式化偏差定义。此外,我们彻底调查了现有的基于余弦的指标及其限制,以表明为什么这些度量可以在某些情况下报告偏差。最后,我们提出了一个新的公制,同样地解决现有度量的缺点,以及数学上证明的表现相同。
translated by 谷歌翻译
我们为双人浮标的车辆动态提供了一种冰摩擦模型,其可用于驾驶员评估和在驾驶员在环路模拟器中。通过将实验结果与有限元模拟相结合来建模纵向摩擦,以产生接触压力和摩擦之间的相关性。为了模拟横向摩擦,我们使用特殊传感器收集44个Bobsleigh运行的数据。非线性回归用于将Bob特定的单轨车辆动态模型适合数据。它适用于驾驶仿真,并启用鲍勃司机评估的新方法。调查了具有各种经验的鲍勃司机。它表明,顶级驱动程序的类似性能由不同的驾驶风格产生。
translated by 谷歌翻译
露天矿山留下了许多全世界地区,不管怎样或无法居住。要将这些地区送回使用,整个土地必须转向化。对于可持续的随后使用或转移到新的主要用途,必须永久管理许多受污染的地点和土壤信息。在大多数情况下,此信息以非结构化数据集合或文件文件夹中的专家报告的形式提供,在最佳情况下是数字化的。由于数据的大小和复杂性,一个人难以概述该数据,以便能够进行可靠的陈述。这是将这些地区快速转移到使用后最重要的障碍之一。基于信息的方法支持本问题支持履行有关环境问题,健康和气候行动的几个可持续发展目标。我们使用一堆光学字符识别,文本分类,主动学习和地理信息系统可视化,以有效地挖掘并可视化这些信息。随后,我们将提取的信息链接到地理坐标并使用地理信息系统可视化它们。主动学习发挥着重要作用,因为我们的数据集不提供培训数据。总共,我们处理九个类别,并积极学习其数据集中的表示。我们分别评估OCR,主动学习和文本分类,以报告系统的性能。主动学习和文本分类结果是双重的:而我们关于限制的类别足够的工作($> $。85 F1),为人类编码人员复杂化了七个主题类别,因此取得了平庸的评价分数($ <$。70 F1)。
translated by 谷歌翻译